Reflections on glossy objects contain valuable and hidden information about the surrounding environment. By converting these objects into cameras, we can unlock exciting applications, including imaging beyond the camera's field-of-view and from seemingly impossible vantage points, e.g. from reflections on the human eye. However, this task is challenging because reflections depend jointly on object geometry, material properties, the 3D environment, and the observer viewing direction. Our approach converts glossy objects with unknown geometry into radiance-field cameras to image the world from the object's perspective. Our key insight is to convert the object surface into a virtual sensor that captures cast reflections as a 2D projection of the 5D environment radiance field visible to the object. We show that recovering the environment radiance fields enables depth and radiance estimation from the object to its surroundings in addition to beyond field-of-view novel-view synthesis, i.e. rendering of novel views that are only directly-visible to the glossy object present in the scene, but not the observer. Moreover, using the radiance field we can image around occluders caused by close-by objects in the scene. Our method is trained end-to-end on multi-view images of the object and jointly estimates object geometry, diffuse radiance, and the 5D environment radiance field.
translated by 谷歌翻译
我们提出了一种学习神经阴影领域的方法,这些方法是神经场景表示,仅从场景中的阴影中学到。虽然传统的形状 - 从阴影(SFS)算法从阴影重建几何形状,但他们采用固定的扫描设置,无法推广到复杂的场景。另一方面,神经渲染算法依赖于RGB图像之间的光度一致性,但在很大程度上忽略了物理线索,例如阴影,这些暗示已被证明提供了有关场景的宝贵信息。我们观察到,阴影是一种强大的提示,可以限制神经场景表示以学习SF,甚至超越nerf来重建其他隐藏的几何形状。我们提出了一种以图形为灵感的可区分方法,以通过体积渲染来渲染准确的阴影,预测可以将其与地面真相阴影相提并论的阴影图。即使只有二进制阴影图,我们也表明神经渲染可以定位对象并估算粗几何形状。我们的方法表明,图像中的稀疏提示可用于使用可区分的体积渲染来估计几何形状。此外,我们的框架是高度概括的,可以与现有的3D重建技术一起工作,否则仅使用光度一致性。
translated by 谷歌翻译
与计算机视觉合并的基于无人机的遥感系统(UAV)遥感系统具有协助建筑物建设和灾难管理的潜力,例如地震期间的损害评估。可以通过检查来评估建筑物到地震的脆弱性,该检查考虑到相关组件的预期损害进展以及组件对结构系统性能的贡献。这些检查中的大多数是手动进行的,导致高利用人力,时间和成本。本文提出了一种通过基于无人机的图像数据收集和用于后处理的软件库来自动化这些检查的方法,该方法有助于估算地震结构参数。这里考虑的关键参数是相邻建筑物,建筑计划形状,建筑计划区域,屋顶上的对象和屋顶布局之间的距离。通过使用距离测量传感器以及通过Google Earth获得的数据进行的现场测量,可以验证所提出的方法在估计上述参数估算上述参数方面的准确性。可以从https://uvrsabi.github.io/访问其他详细信息和代码。
translated by 谷歌翻译
尽管表示学习对于机器学习和人工智能的兴起至关重要,但仍有一个关键问题在使学习的表示有意义。为此,典型的方法是通过先前的概率分布正规化学习的表示形式。但是,这样的先验通常不可用或临时。为了解决这个问题,我们提出了一个动态约束的表示学习框架。我们不使用预定义的概率,而是将潜在表示限制为遵循特定的动力学,这是在动态系统中的表示形式学习的更自然的约束。我们的信念源于物理学的基本观察,尽管不同的系统可以具有不同的边缘化概率分布,但它们通常遵守相同的动态,例如牛顿和施罗宾格的方程。我们验证了不同系统的框架,包括真实的荧光DNA电影数据集。我们表明,我们的算法可以唯一识别不相关的,等距和有意义的潜在表示。
translated by 谷歌翻译
在过去的几年中,不同类型的数据驱动的人工智能(AI)技术已在科学的各个领域广泛采用,用于生成预测的黑盒模型。但是,由于其黑框的性质,在接受这些模型之前对这些模型建立信任至关重要。实现这一目标的一种方法是实施事后解释方案,该方案可以提出黑框模型预测背后的原因。在这项工作中,我们为此目的提出了一种经典的热力学启发方法:AI和其他黑盒范式(TERP)的热力学解释表示。 TERP通过构建线性的局部替代模型来起作用,该模型在所解释的实例周围的小社区中近似黑框模型的行为。通过采用简单的前向特征选择蒙特卡洛算法,TERP为所有可能的替代模型分配了解释性自由能评分,以选择最佳解释。此外,我们通过成功解释来自来自相关领域的数据集的四种不同类别的黑盒模型,将TERP验证为一种通常适用的方法,包括对图像进行分类,预测心脏病和分类生物分子构象。
translated by 谷歌翻译
扩散概率模型已被证明在几个竞争性图像综合基准上产生最先进的结果,但缺乏低维,可解释的潜在空间,并且在一代中慢慢。另一方面,变形AutoEncoders(VAES)通常可以访问低维潜空间,但表现出差的样品质量。尽管最近的进步,VAE通常需要潜在代码的高维层次结构来产生高质量样本。我们呈现DiffUsevae,一种新的生成框架,它在扩散模型框架内集成了VAE,并利用这一点以设计用于扩散模型的新型条件参数化。我们表明所得模型可以在采样效率方面提高无条件扩散模型,同时还配备了具有低维VAE的扩散模型推断潜码。此外,我们表明所提出的模型可以产生高分辨率样本,并展示与标准基准上的最先进模型相当的合成质量。最后,我们表明所提出的方法可用于可控制的图像合成,并且还展示了图像超分辨率和去噪等下游任务的开箱即用功能。为了重现性,我们的源代码将公开可用于\ url {https://github.com/kpandey008/diffusevae}。
translated by 谷歌翻译
分析对人脸上的表达在识别人的情绪和行为方面发挥着非常重要的作用。识别这些表达式会自动导致自然人机接口的重要组成部分。因此,该领域的研究在生物公制认证,监控系统,情感到各种社交媒体平台中的情感方面具有广泛的应用。另一个申请包括进行客户满意度调查。正如我们所知,大型公司使巨额投资获得反馈并进行调查,但未能获得公平的反应。通过面部手势的情感和性别识别是一种技术,旨在通过他们的评价监测客户行为来改善产品和服务性能。在过去几年中,在特征提取机制,面部检测和表达分类技术方面已经进行了各种各样的进展。本文是实施一个用于构建可以检测到人的情绪和性别的实时系统的集合CNN。实验结果表明,在FER-2013 DataSet上的7个课程(愤怒,恐惧,悲伤,快乐,惊喜,中立,中立,厌恶)和IMDB数据集上的性别分类(男性或女性)的95%,精度为68%的准确性。我们的工作可以预测单一面部图像以及多个面部图像的情感和性别。此外,当通过网络摄像头给出输入时,我们的完整流水线可以花费小于0.5秒才能生成结果。
translated by 谷歌翻译
We introduce a large scale MAchine Reading COmprehension dataset, which we name MS MARCO. The dataset comprises of 1,010,916 anonymized questionssampled from Bing's search query logs-each with a human generated answer and 182,669 completely human rewritten generated answers. In addition, the dataset contains 8,841,823 passages-extracted from 3,563,535 web documents retrieved by Bing-that provide the information necessary for curating the natural language answers. A question in the MS MARCO dataset may have multiple answers or no answers at all. Using this dataset, we propose three different tasks with varying levels of difficulty: (i) predict if a question is answerable given a set of context passages, and extract and synthesize the answer as a human would (ii) generate a well-formed answer (if possible) based on the context passages that can be understood with the question and passage context, and finally (iii) rank a set of retrieved passages given a question. The size of the dataset and the fact that the questions are derived from real user search queries distinguishes MS MARCO from other well-known publicly available datasets for machine reading comprehension and question-answering. We believe that the scale and the real-world nature of this dataset makes it attractive for benchmarking machine reading comprehension and question-answering models.
translated by 谷歌翻译